Алгоритмы множественного выравнивания. Pfam

Различия во множественных выравниваниях, построенных разными программами

Для выполнения первого задания этого практикума я взяла шесть последовательностей белков из практикума 10. [1] На Рис.1 представлено выравнивание, сделанное с помощью программы TCoffee. Для сравнения я выбрала выравнивание, построенное с помощью программы MSAprobs, которое изображено на Рис.2. JalView проект в итоге содержит шесть выравниваний (в программах GLprobs, MSAprobs, Mafft, Muscle, Probcons и TCoffe), а также совокупность исходных последовательностей (без выравнивания).
Рис.1 Выравнивание, построенное с помощью программы TCoffee в раскраске ClustalX (100%)
Ссылка на fasta-файл.



Рис.2 Выравнивание, построенное с помощью программы MSAprobs в раскраске ClustalX (100%)
Ссылка на fasta-файл.



Комментарии к множественным выравниваниям, построенным разными программами:

~ Отличия в выравниваниях начинаются уже со второй позиции. Программа TCoffee для 4 и 5 последовательностей ставит а.к.о. S на вторую позицию, в то время как программа MSAprobs определяет серин для этих белков на 31 позицию.
~ Программа TCoffee в последней последовательности определяет а.к.о. Q на 23 позицию, образуя таким образом два инделя (с 4 позиции по 22 , и с 24 по 27 позицию). Программа MSAprobs ставит Глутамин на 27 позицию, сокращая количество инделей в последовательности белка.
~ Легко увидеть отличия на позициях со 137 по 141. Гэпы на позициях 140 и 141 (кроме второй последовательности) исчезают за счет сдвига а.к.о., стоящих на три (две для четвертой последовательности) позиции левее. Так же на четвертой последовательности а.к.о. К со 112 позиции (выравнивание TCoffee) сдвигается на 139 (выравнивание MSAprobs). В итоге длинна инделей увеличивается, а их число - сокращается.
~ 331 позиция в программе TCoffee является абсолютно консервативной. Однако в пргнрамме MSAprobs а.к.о. G с 331 позиции перемещен на 332 (вторая последовательность). Вероятно, это отличие появилось из-за того, что программа MSAprobs на позициях с 327 по 332 предполагает только один индель (на 327 позиции - а.к.о. Е; на позициях 328-331 - гэпы; на позиции 332 - а.к.о. G), программ TCoffee на тех же позициях второй последовательности предпологает уже два инделя (на позициях 327-329 - гэпы; на позиции 330 - а.к.о. Е; на позиции 331 - а.к.о. G; на позиции 332 - гэп;).
~ Следует обратить внимание на позиции с 397 по 399. В программе MSAprobs в отличии от программы TCoffee на 397 позиции в предпоследней последовательности появляется гэп, сдвигающий последовательность на одну позицию правее. Из-за этого консервативность позиции сдвигается, появляется необходимость нивелировать последствия сдвига, поэтому на позиции 399 во всех последовательностях, кроме пятой, появляются гэпы, также сдвигающие последующие а.к.о. на одну позицию правее. В дальнейшем из-за этого сдвига выравнивания программ отличаются на позицию, т.е. те позиции, которые расположены в варывнивании TCoffee имеют меньший номер, чем аналогичные позиции из MSAprobs.
~ В завершение можно сказать, что длины выравниваний также отличаются. Выравнивание TCoffee имеет длину 728, а MSAprobs - 722.


Опиcание трех доменных архитектур, содержащих один и тот же домен

Для белка P0A9M0 (LON_ECOLI)
Для выполнения второго задания я хотела взять белок KST73838.1, который уже описывала в этом семестре в практикуме 12. [2]. Но результаты поиска оказались неудовлетворительными. Поэтому я попробовала работать с другим белком этого семестра - 4A5O. [3] (упоминается в практикумах 1 и 2 второго семестра [2]) Но он не содержал ничего интересного, поэтому я выбрала совершенно новый белок P0A9M0 (LON_ECOLI). [4]. Это ATФ-зависимая сериновая протеаза, которая требуется для клеточного гомеостаза и для выживания после повреждений ДНК и изменений развития, вызванных стрессом. Деградирует полипептиды до получения небольших пептидных фрагментов длиной от 5 до 10 аминокислот [5]. Внешний вид этого белка представлен на Рис.3.
Рис.3 Внешний вид белка P0A9M0

Данный белок включает в себя три домена (представлены на Рис.4).
Рис.4 Доменная архитектура белка P0A9M0 (LON_ECOLI)

Первый домен (зеленый) - это АТФ-зависимая протеаза La (LON), которая отвечает за связь с субстратом. Второй домен (красный) - AAA или AAA + (является аббревиатурой для АТФазы, связанной с различной клеточной деятельностью). Третий домен (синий) - С-концевой протеолитический домен Lon протеазы (S16) [6]. Более подробное описание доменов представлено в Таблице 1.
Дальнейший поиск я произвожу по домену (ААА).
Таблица 1. Доменная архитектура белка P0A9M0
Домен Структура Описание Пример структуры
ATP-dependent protease La (LON) substrate-binding domain (АТФ-зависимая протеаза La (LON) субстрат-связывающего домена) АТФ-зависимые Lon - протеазы сохраняется во всех живых организмах и катализируют быстрый оборот короткоживущих регуляторных белков и многих поврежденных или денатурированных белков. В молекулярной биологии семейство Lon-протеазы представлено протеазами. Это N-концевой домен, который можно найти у архей, бактерий и эукариот . Lon-протеазы являются АТФ-зависимыми сериновыми пептидазами, принадлежащими к Merops-пептидазам семейства S16 (на рисунке слева - Кристаллическая структура N-концевого домена E.Coli Lon протеазы). [7]. Crystal structure of N-terminal domain of E.Coli Lon Protease (Кристаллическая структура N-концевого домена E.Coli Lon - протеиназы)
ATPase family associated with various cellular activities (AAA) (Семейство АТФазы, связанное с различной клеточной деятельностью (AAA)) Это большое, функционально разнообразное белковое семейство, принадлежащее к AAA надсемейству кольцеобразной Р-петли NTPases, которое проявляет свою активность через зависящую от энергии ремоделирования или транслокации макромолекулу. Члены семьи AAA найдены во всех организмах, они имеют важное значение для многих клеточных функций. Также участвует в таких процессах, как репликация ДНК, деградации белка, слияние мембран, микротрубочек, разрыв пероксиса биогенез, сигнальная трансдукция и регуляция экспрессии генов (на рисунке слева - N-этилмалеимид-чувствительный фактор). [8]. TRIGONAL CRYSTAL FORM OF HEAT SHOCK LOCUS U (HSLU) FROM ESCHERICHIA COLI (Тригональная кристаллическая форма теплового шока LOCUS U (HSLU) ОТ кишечной палочки)
Lon protease (S16) C-terminal proteolytic domain (С-концевой протолитический домен Lon протеазы (S16)) Серинпротеазы Lon должны гидролизовать АТФ для деградирования белковых субстратов. В кишечной палочке эти протеазы участвуют в обороте внутриклеточных белков, в том числе аномальных белков после теплового шока. В Lon протеазы классифицируются как семья S16 в Merops.(на рисунке слева - Кристаллическая структура N-концевого домена E.Coli Lon протеазы). [9]. The Lon-like protease MtaLonC in complex with lactacystin (Lon-протеаза, как MtaLonC в комплексе с lactacystin)


Для белка P52917 (VPS4_YEAST)
Следующий белок, который я описываю - это P52917 (VPS4_YEAST) [10]. Его внешний вид представлен на Рис.5. Доменная структура включает в себя три домена и изображена на Рис.6
Рис.5 Внешний вид белка P52917

Рис.6 Доменная архитектура белка P52917 (VPS4_YEAST)

Первый домен (зеленый) - это домен MIT (микротрубочковое взаимодействие и транспорт). Второй (красный) - уже описываемый AAA или AAA +. Третий домен (синий) - Vps4 C-концевой домен олигомеризации. Подробное описание ранее не упоминаемых доменов можно увидеть в Таблице 2.
Таблица 2. Доменная архитектура белка P52917
Домен Структура Описание Пример структуры
MIT (microtubule interacting and transport) (MIT (микротрубочковое взаимодействие и транспорт)) - Домен MIT образует пучок из трех ассимитиричных спиралей и связывает ESCRT-III (эндосая сортировка комплексов, необходимых для транспортировки) [11]. VPS4B MIT-CHMP2B Complex (VPS4B MIT-CHMP2B комплекс)
Vps4 C terminal oligomerisation domain (Vps4 C-концевой домен олигомеризации) - Этот домен находится в терминале C АТФазы белков , участвующих в сортировке вакуоли. Он образует структуру альфа - спирали и необходим для олигомеризации [12]. Crystal structure of mouse SKD1/VPS4B apo-form (Кристаллическая структура мышиного SKD1 / VPS4B апо-формы)


Для белка O15381 (NVL_HUMAN)
Следующий белок, который я описываю - это O15381 (NVL_HUMAN) [13]. Его внешний вид представлен на Рис.7. Доменная структура включает в себя три домена и изображена на Рис.8
Рис.7 Внешний вид белка O15381

Рис.8 Доменная архитектура белка O15381 (NVL_HUMAN)

Первый домен (зеленый) - это нуклеолин-связывающий домен. Второй и третий домены (красные) - это уже описываемый AAA или AAA +. Подробное описание ранее не упоминаемых доменов можно увидеть в Таблице 3.
Таблица 3. Доменная архитектура белка O15381
Домен Структура Описание Пример структуры
Nucleolin binding domain (Нуклеолин-связывающий домен) - Этот домен принимает вид трех спиралей, напоминающих часть крыла. Он связывает нуклеолин [14]. Structure and function of the N-terminal nucleolin binding domain of nuclear valocine containing protein like 2 (NVL2) harboring a nucleolar localization signal (Структура и функция N-концевого нуклеолин связывающего домена ядерного valocine, содержащиая такие белки, как 2 (NVL2) укрывающие ядрышки сигналы локализации)


Для белка Q9WZ49 (FTSH_THEMA)
Следующий белок, который я описываю - это Q9WZ49 (FTSH_THEMA) [15]. Его внешний вид представлен на Рис.9. Доменная структура включает в себя три домена и изображена на Рис.10
Рис.9 Внешний вид белка Q9WZ49

Рис.10 Доменная архитектура белка Q9WZ49 (FTSH_THEMA)

Первый домен (зеленый) - FTSH внеклеточная. Второй домен (красный) - это уже описываемый AAA или AAA +. Третий домен (синий) принадлежит к семье пептидазы M41. Подробное описание ранее не упоминаемых доменов можно увидеть в Таблице 4.
Таблица 4. Доменная архитектура белка Q9WZ49
Домен Структура Описание Пример структуры
FtsH Extracellular (FTSH внеклеточная) - Этот домен находится в семье FTSH белков. FTSH является единственной мембраносвязанной АТФ-зависимой протеазой повсеместно сохраняющейся у прокариот. Некоторые признаки указывают на то, что она является одним из основных механизмов самозащиты прокариот, который проверяет, правильно ли белки сложены (личные набл: Йейтс C). Точная функция этой N-концевой области остается неясной [16]. Escherichia coli FtsH hexameric N-domain (FTSH гексамерный N-домен кишечной палочки)
Peptidase family M41 (семья Пептидазы M41) - В этих ферментах присутствует двухвалентный катион, как правило, цинк, но может быть кобальт, марганец или медь, который активирует молекулу воды. Пептидазы семьи М41 принадлежат к большей семье металлопротеаз цинка. Это семейство включает в себя белок деления клеток FTSH и дрожжи митохондриальных цепных комплексов сборки, а также дыхательный белок, который представляет собой предполагаемую АТФ-зависимую протеазу, необходимую для сборки митохондриальной дыхательной цепи и АТФазных комплексов. [17]. Truncated FtsH from A. aeolicus (Усе FTSH от А. aeolicus)

Ссылки практикума

[1] и [2] - Прошлые практикумы второго семестра
[3], [4], [10],[13] и [15] - различные страницы ресурса RCSB PDB
[5] - ресурс Uniprot. Ссылки - названия белков принадлежат этому же информационному порталу. [6], [7], [8], [9], [11], [12], [14], [16], [17] - ссылки на ресурс Pfam


© Serebrennikova Maria 2017